AI资讯新闻榜单内容搜索-AI 研究

EvaLearn：AI下半场的全新评测范式！

在三个月前，OpenAI 研究员 Shunyu Yao 发表了一篇关于 AI 的下半场的博客引起了广泛讨论。他在博客中指出，AI 研究正在从 “能不能做” 转向 “学得是否有效”，传统的基准测试已经难以衡量 AI 的实际效用，他指出现有的评估方式中，模型被要求独立完成每个任务，然后取平均得分。这种方式忽略了任务之间的连贯性，无法评估模型长期适应能力和更类人的动态学习能力。

来自主题: AI技术研报

8049 点击 2025-07-29 10:54

前 OpenAI 研究员 Kevin Lu：别折腾 RL 了，互联网才是让大模型进步的关键

「停止研究 RL 吧，研究者更应该将精力投入到产品开发中，真正推动人工智能大规模发展的关键技术是互联网，而不是像 Transformer 这样的模型架构。」

来自主题: AI资讯

8856 点击 2025-07-13 11:23

疯狂挖人之后，小扎刚刚官宣超级智能 AI 梦之队，华人占大半 | 附 11 人核心名单

在长达数周的高强度「挖角」之后，Meta 今天凌晨宣布正式成立超级智能实验室（Meta Superintelligence Labs，简称 MSL）。Meta CEO 马克·扎克伯格在当时时间周一发布的一封内部信中透露，MSL 将整合公司现有的基础 AI 研究（FAIR）、大语言模型开发以及 AI 产品团队，并组建一个专门研发下一代 AI 模型的新实验室。

来自主题: AI资讯

10048 点击 2025-07-01 09:04

刚刚，OpenAI四位华人学者集体被挖，还是Meta重金出手

再一次，Meta「搜刮」了 OpenAI 的成员。The Information 发布了文章，谈到 Meta 再聘四名 OpenAI 研究人员。这离上一次 OpenAI 苏黎世办公室被 Meta 一锅端只隔了短短几天时间。

来自主题: AI资讯

9170 点击 2025-06-29 10:46

内部爆料，OpenAI 将发布神秘「OS模型」，员工惊掉下巴

刚刚，OpenAI 研究员Aidan McLaughlin的一条推文引爆了网友们的关注。

来自主题: AI资讯

9506 点击 2025-06-27 12:44

姚顺雨提到的「AI下半场」，产品评估仍被误解

前段时间，OpenAI 研究员姚顺雨发表了一篇主题为「AI 下半场」的博客。其中提到，「接下来，AI 的重点将从解决问题转向定义问题。在这个新时代，评估的重要性将超过训练。我们需要重新思考如何训练 AI 以及如何衡量进展，这可能需要更接近产品经理的思维方式。」（参见《清华学霸、OpenAI 姚顺雨：AI 下半场开战，评估将比训练重要》）

来自主题: AI资讯

7980 点击 2025-06-03 13:40

通专融合，思维链还透明，上海AI Lab为新一代大模型打了个样

OpenAI 研究员姚顺雨近期发布文章，指出：AI 下半场将聚焦问题定义与评估体系重构。在 AI 发展新阶段，行业需要通过设计更有效的模型评测体系，弥补 AI 能力与真实需求的差距。

来自主题: AI技术研报

11304 点击 2025-05-24 15:33

9年实现爱因斯坦级AGI？OpenAI科学家Dan Roberts谈强化学习扩展的未来

近日，在红杉资本主办的 AI Ascent 上，OpenAI 研究科学家 Dan Roberts 做了主题为「接下来的未来 / 扩展强化学习」的演讲，其上传到 YouTube 的版本更是采用了一个更吸引人的标题：「9 年实现 AGI？OpenAI 的 Dan Roberts 推测将如何模拟爱因斯坦。」

来自主题: AI资讯

9103 点击 2025-05-10 17:51

OpenAI 刚刚开源了 PaperBench，用于评估 Agent 复现顶尖论文能力！

PaperBench 是一个由 OpenAI 开发的基准测试，旨在评估 AI Agent 复现尖端 AI 研究的能力。它专注于测试 AI 是否能理解研究论文、独立开发代码并执行实验以复现研究结果。

来自主题: AI技术研报

8975 点击 2025-04-03 10:57

今天的 AI 创业，正在重复《苦涩的教训》

「70 年的 AI 研究历史告诉我们一个最重要的道理：依靠纯粹算力的通用方法，最终总能以压倒性优势胜出。」如今，似乎可以重新再聊下这个话题。比如前两天我们发的 Agent 文章里的观点：未来 AI 智能体的发展方向还得是模型本身，而不是工作流（Work Flow）。

来自主题: AI资讯

9176 点击 2025-03-26 21:01